iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 5
0
AI & Data

AWS 數據處理與分析實戰系列 第 5

Day 5 Glue Data Catalog 教學 - Part 2

  • 分享至 

  • xImage
  •  

今天接著介紹 JSON、CSV 的 Classifier 設定

c. JSON 設定

https://ithelp.ithome.com.tw/upload/images/20200919/20129236Vt1rVXbD0Q.png

JSON path:此處設定如何讀取 JSON 檔
例如 JSON 檔內容如下,則 JSON path 需填入 $[*],$ 代表著整個 JSON 檔內容,[*] 代表我要取出陣列中所有的資料

https://ithelp.ithome.com.tw/upload/images/20200919/20129236kd9DzLolSJ.png

d. CSV 設定

https://ithelp.ithome.com.tw/upload/images/20200919/20129236z77pbkxnVO.png

Column delimiter:選擇 CSV 資料欄位主要的分隔符號,通常逗號、空白、Tab 比較常見
Quote symbol:選擇 CSV 欄位的次要分隔符號,通常為雙引號,當欄位資料可能包含主要分隔符號時就會使用次要分隔符號將該欄位分隔出來
範例資料如下,在英文名稱的欄位中可能會也逗號產生也就是主要分隔符號,所以會用雙引號將其進行分隔,避免誤判資料欄位
user_id,english_name,phone_num
001,”HUANG,SIAO-MING”,0912345678

Column headings:用於設定欄位名稱,有三種不同選項,分別為

  1. Detect headings -> 讓 Glue 自動偵測 CSV 的欄位名稱,當沒有欄位名稱時會自動補上默認的欄位名稱 col0,col1,col2, …
  2. Has headings -> 讓 Glue 知道 CSV 有欄位名稱,如果想要修改為自己的欄位名稱,可以直接將新的欄位名稱填入下方的欄位並用逗號隔開
  3. No headings -> 讓 Glue 知道 CSV 沒有欄位名稱,Glue 會自動補上默認的欄位名稱col0,col1,col2, …,也可以在下面欄位填入自己的欄位名稱並用逗號隔開

Processing options:

  1. Allow files with single column -> 允許只有一個欄位的資料檔案進行解析
  2. Trim whitespace before identifying column values -> 在進行欄位的資料類型判定前,將欄位中的前後的空白去除,如果含有空白則會被判定為 String

上一篇
Day 4 Glue Data Catalog 教學 - Part 1
下一篇
Day 6 Glue Data Catalog 教學 - Part 3
系列文
AWS 數據處理與分析實戰30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言